「Amazon Athena for Apache Sparkを使ってデータ分析をしよう!」というタイトルで DevelopersIO 2023 に登壇しました! #devio2023

「Amazon Athena for Apache Sparkを使ってデータ分析をしよう!」というタイトルで DevelopersIO 2023 に登壇しました! #devio2023

Amazon Athena for Apache Sparkについて、データ分析基盤・機械学習システムにおける役割や特徴、ユースケースをご紹介しました。
Clock Icon2023.07.20

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部 機械学習チームの鈴木です。

DevelopersIO 2023 大阪にて「Amazon Athena for Apache Sparkを使ってデータ分析をしよう!」というタイトルで登壇しましたので資料をご共有します。

資料

ポイント

セッションで話した内容

Amazon Athena for Apache Sparkは、データレイクのデータに対して高いアジリティで分析を進められるインタラクティブな分析インターフェースだとして紹介しました。

セッションで話した内容

特にデータ分析基盤自体に改修をしなくても、エンドユーザーでも簡単に大規模な生データやデータマートに対して分析を行うことができる点をポイントと考えています。これにより、データ分析基盤の設計にも幅が出るように思います。

課題に対する活用イメージ

レコメンデーションシステムを開発・運用する際に、レコメンデーションエンジンであるAmazon Personalizeは直接生データを取り込めないので、ETL処理の開発と運用が必要になることをお話ししました。

レコメンデーションシステム例

※ 『レコメンドシステムプラン | 機械学習システム導入支援』でご提供しているようなイメージ

特にハブアンドスポークアーキテクチャのデータ分析基盤においては、ETL処理の開発はデータ分析基盤側のデータエンジニアが行うため、要求に対してどうしてもボトルネックになりやすいです。

分析用リソース開発のボトルネック

そのため、マネージドでサーバレスなAmazon Athena for Apache Sparkを使い、一般的に広く使われているノートブックのUIとPythonを使うことで、 かなり気軽にETL処理とは別の大規模データ向けの口を用意することができるようになりました。

Amazon Athena for Apache Sparkのいちおしポイント

Amazon Athena for Apache Sparkについて

Amazon Athena for Apache Sparkのすごいポイントです。特にインタラクティブな処理実行に最適化されたApache Sparkで、非常にスムーズにアドホックな分析ができるよう気を配られている点が素晴らしいと思いました。

すごいポイント

必要となるリソースの全体イメージもまとめてご紹介しました。

リソース作成のイメージ

ほかのサービスとの比較

ほかのノートブックのインターフェースがあるAWSサービスとの比較をまとめたものになります。

Amazon Athena for Apache Sparkは明らかに大規模データのインタラクティブ分析に最適化されており、サーバレスでマネージドなサービスになります。スケールも、ノートブックに設定したパラメータにしたがって自動で行われます。インタラクティブ性向上のための明示的なホットスタンバイも不要です。

ノートブックインターフェース観点での比較

Athena SQLとの比較もまとめました。この観点に関しては、『『インタラクティブな分析アプリケーションを構築しよう』セッションに考える、データレイクへのインタラクティブな分析インターフェースの活用』でまとめた内容を反映しています。

Athena SQLとの比較

想定するユースケース例

アドホックなデータ分析用途の例を2つ紹介しました。いずれもレイク層の生データを分析する例です。個人的にはインタラクティブな分析に使い、バッチ処理化したい場合は、AWS GlueのジョブやAthena SQLにするのが良いと思っています。

データマート作成のための検証

既存データマートの元データに対するアドホックなデータ分析

補足

料金面は、発表時点ではほかのサービスと比較して差があるため、リージョンやユースケースを考慮して選択されるとよいと思います。

料金面

最後に

DevelopersIO 2023 大阪にて「Amazon Athena for Apache Sparkを使ってデータ分析をしよう!」というタイトルで登壇しました。

re:Invent2022で発表されたAmazon Athena for Apache Sparkがデータ分析基盤でどのような役割を果たすかみつつ、データ分析基盤構築やそのユースケースによってどのように幅が広がったかを確認しました。

参考になりましたら幸いです。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.